-Introducción

Para nuestro proyecto inicialmente se escogió la variable respuesta departamento de nacimiento, para poder determinar qué variables tienen mayor influencia en base a la diferenciación de departamentos.Se decidió cambiar de variable respuesta debido a que la clasificacion de departamentos era muy dificil de tratar y muchas variables por clasificar. Finalmente se decidieron las variables respuesta edad de madre. Se hará un algoritmo de arboles de clasificasión y dos redes neuronales por cada tabla en la que se va a trabajar. Los árboles de clasificación se usarán para verificar qué variables definen un cambio en en la clasificación de edad de la mujer. Los algoritmos de redes neuronales se usarán para comprobar la relación de la variable respuesta con el resto de variables usando diferentes combinaciones de cada algoritmo para obtener los mejores indices de “accuracy” posible. Las tablas que se usarán son las siguientes:

-Conjuntos de entrenamiento y prueba:

Para los conjuntos de entrenamiento, se escogieron las porciones de 80% entrenamiento a 20%. Estas medidas las obtuvimos de unos apuntes de un curso de machine learning extraido de: https://developers.google.com/machine-learning/crash-course/training-and-test-sets/splitting-data. El primer algoritmo que se va a utilizar es un arbol de clasificación para determinar una jerarquía de importancia entre los datos. Seguido de Redes Neuronales para comprobar que tanto se puede predecir con los datos que se tienen, o sea a que porcentaje de precisión se puede llegar.

- Arboles de Clasificación

## Confusion Matrix and Statistics
## 
##                      Reference
## Prediction            Menor de edad Joven mayor de edad Mayor de edad
##   Menor de edad                   8                   0             0
##   Joven mayor de edad             1                  22             0
##   Mayor de edad                   2                   1            18
##   Edad avanzada                   3                   0             0
##                      Reference
## Prediction            Edad avanzada
##   Menor de edad                   4
##   Joven mayor de edad             0
##   Mayor de edad                   0
##   Edad avanzada                  41
## 
## Overall Statistics
##                                           
##                Accuracy : 0.89            
##                  95% CI : (0.8117, 0.9438)
##     No Information Rate : 0.45            
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.8416          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: Menor de edad Class: Joven mayor de edad
## Sensitivity                        0.5714                     0.9565
## Specificity                        0.9535                     0.9870
## Pos Pred Value                     0.6667                     0.9565
## Neg Pred Value                     0.9318                     0.9870
## Prevalence                         0.1400                     0.2300
## Detection Rate                     0.0800                     0.2200
## Detection Prevalence               0.1200                     0.2300
## Balanced Accuracy                  0.7625                     0.9718
##                      Class: Mayor de edad Class: Edad avanzada
## Sensitivity                        1.0000               0.9111
## Specificity                        0.9634               0.9455
## Pos Pred Value                     0.8571               0.9318
## Neg Pred Value                     1.0000               0.9286
## Prevalence                         0.1800               0.4500
## Detection Rate                     0.1800               0.4100
## Detection Prevalence               0.2100               0.4400
## Balanced Accuracy                  0.9817               0.9283

En el primer arbol de decisión se logró una accuracy aproximadamente de 89%, la cual está bastante bien. Que tenga una alta accuracy, asegura que los datos que se extraigan de este modelo van a ser bastante certeros. En el gráfico del árbol podemos notar que la suma de las casillas con título “Menor de edad” dan un resultado aproximado de un 15% de mujeres menores de edad(18) que están teniendo un hijo. Otro dato relevante es que le siguen las mujeres de 18 a 28 años siendo el 22%. Las variables relevantes de departamentos que determinan al modelo son las siguientes: Escuintla, Chimaltenango, Petén, Guatemala y San Marcos.

## Confusion Matrix and Statistics
## 
##                   Reference
## Prediction         15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49
##   15 - 19                2       0       0       0       5       0       0
##   20 - 24                0       2       0       0       0       0       0
##   25 - 29                0       0       1       0       0       0       0
##   30 - 34                0       0       0       2       0       0       0
##   35 - 39                0       0       0       0       0       0       0
##   40 - 44                0       0       0       0       0       2       0
##   45 - 49                0       0       0       0       0       0       2
##   50 y más               0       0       0       0       0       0       0
##   Ignorado               0       0       0       0       0       0       0
##   Menos de 15            0       0       0       0       0       0       0
##   Todas las edades       0       0       0       0       0       0       0
##                   Reference
## Prediction         50 y más Ignorado Menos de 15 Todas las edades
##   15 - 19                 0        0           0                0
##   20 - 24                 0        0           0                2
##   25 - 29                 0        0           0                0
##   30 - 34                 0        0           0                0
##   35 - 39                 0        0           0                0
##   40 - 44                 0        0           0                0
##   45 - 49                 0        0           0                0
##   50 y más                0        0           0                0
##   Ignorado                2        1           0                0
##   Menos de 15             0        0           1                0
##   Todas las edades        0        0           0                0
## 
## Overall Statistics
##                                           
##                Accuracy : 0.5909          
##                  95% CI : (0.3635, 0.7929)
##     No Information Rate : 0.2273          
##     P-Value [Acc > NIR] : 0.0002579       
##                                           
##                   Kappa : 0.5551          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: 15 - 19 Class: 20 - 24 Class: 25 - 29
## Sensitivity                 1.00000        1.00000        1.00000
## Specificity                 0.75000        0.90000        1.00000
## Pos Pred Value              0.28571        0.50000        1.00000
## Neg Pred Value              1.00000        1.00000        1.00000
## Prevalence                  0.09091        0.09091        0.04545
## Detection Rate              0.09091        0.09091        0.04545
## Detection Prevalence        0.31818        0.18182        0.04545
## Balanced Accuracy           0.87500        0.95000        1.00000
##                      Class: 30 - 34 Class: 35 - 39 Class: 40 - 44
## Sensitivity                 1.00000         0.0000        1.00000
## Specificity                 1.00000         1.0000        1.00000
## Pos Pred Value              1.00000            NaN        1.00000
## Neg Pred Value              1.00000         0.7727        1.00000
## Prevalence                  0.09091         0.2273        0.09091
## Detection Rate              0.09091         0.0000        0.09091
## Detection Prevalence        0.09091         0.0000        0.09091
## Balanced Accuracy           1.00000         0.5000        1.00000
##                      Class: 45 - 49 Class: 50 y más Class: Ignorado
## Sensitivity                 1.00000         0.00000         1.00000
## Specificity                 1.00000         1.00000         0.90476
## Pos Pred Value              1.00000             NaN         0.33333
## Neg Pred Value              1.00000         0.90909         1.00000
## Prevalence                  0.09091         0.09091         0.04545
## Detection Rate              0.09091         0.00000         0.04545
## Detection Prevalence        0.09091         0.00000         0.13636
## Balanced Accuracy           1.00000         0.50000         0.95238
##                      Class: Menos de 15 Class: Todas las edades
## Sensitivity                     1.00000                 0.00000
## Specificity                     1.00000                 1.00000
## Pos Pred Value                  1.00000                     NaN
## Neg Pred Value                  1.00000                 0.90909
## Prevalence                      0.04545                 0.09091
## Detection Rate                  0.04545                 0.00000
## Detection Prevalence            0.04545                 0.00000
## Balanced Accuracy               1.00000                 0.50000

En este arbol se tiene una accuracy aproximadamente de 60%, es relativamente baja, pero igualment se decidió contemplar los datos de este. Cuenta con un 10% con menos de 15 años, y 15% de 15 a 19 años. Por ultimo de 20 a 24 años, es el 18% siendo un total del 43% de las madres del país tienen menos de 25 años.

## Confusion Matrix and Statistics
## 
##                   Reference
## Prediction         15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49
##   15 - 19               19      12      20      14      12       8       0
##   20 - 24                3       3       5       6       0       0       0
##   25 - 29                0       5       2       4       0       0       0
##   30 - 34               16      10      16      13      10       4       0
##   35 - 39                3       0       0       0       9       0       0
##   40 - 44                1       3       5       4       7      29       3
##   45 - 49                0       0       0       0       0       0      18
##   50 y más               1       0       1       2       2       1      11
##   Ignorado               0       0       0       0       0       0       0
##   Menos de 15            0       0       0       0       0       2      10
##   Todas las edades       1       8       3       3       2       0       0
##                   Reference
## Prediction         50 y más Ignorado Menos de 15 Todas las edades
##   15 - 19                 0        1           0                5
##   20 - 24                 0        0           0                0
##   25 - 29                 0        0           0                1
##   30 - 34                 0        0           1                0
##   35 - 39                 0        0           0                0
##   40 - 44                 0        1          12                1
##   45 - 49                 8        6          13                0
##   50 y más               27       17           8                0
##   Ignorado               11       14           0                0
##   Menos de 15             1        1          12                0
##   Todas las edades        0        0           0               33
## 
## Overall Statistics
##                                           
##                Accuracy : 0.3698          
##                  95% CI : (0.3267, 0.4146)
##     No Information Rate : 0.1074          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.3067          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: 15 - 19 Class: 20 - 24 Class: 25 - 29
## Sensitivity                 0.43182       0.073171       0.038462
## Specificity                 0.83636       0.968397       0.976852
## Pos Pred Value              0.20879       0.176471       0.166667
## Neg Pred Value              0.93639       0.918630       0.894068
## Prevalence                  0.09091       0.084711       0.107438
## Detection Rate              0.03926       0.006198       0.004132
## Detection Prevalence        0.18802       0.035124       0.024793
## Balanced Accuracy           0.63409       0.520784       0.507657
##                      Class: 30 - 34 Class: 35 - 39 Class: 40 - 44
## Sensitivity                 0.28261        0.21429        0.65909
## Specificity                 0.86986        0.99321        0.91591
## Pos Pred Value              0.18571        0.75000        0.43939
## Neg Pred Value              0.92029        0.93008        0.96411
## Prevalence                  0.09504        0.08678        0.09091
## Detection Rate              0.02686        0.01860        0.05992
## Detection Prevalence        0.14463        0.02479        0.13636
## Balanced Accuracy           0.57624        0.60375        0.78750
##                      Class: 45 - 49 Class: 50 y más Class: Ignorado
## Sensitivity                 0.42857         0.57447         0.35000
## Specificity                 0.93891         0.90160         0.97523
## Pos Pred Value              0.40000         0.38571         0.56000
## Neg Pred Value              0.94533         0.95169         0.94336
## Prevalence                  0.08678         0.09711         0.08264
## Detection Rate              0.03719         0.05579         0.02893
## Detection Prevalence        0.09298         0.14463         0.05165
## Balanced Accuracy           0.68374         0.73803         0.66261
##                      Class: Menos de 15 Class: Todas las edades
## Sensitivity                     0.26087                 0.82500
## Specificity                     0.96804                 0.96171
## Pos Pred Value                  0.46154                 0.66000
## Neg Pred Value                  0.92576                 0.98387
## Prevalence                      0.09504                 0.08264
## Detection Rate                  0.02479                 0.06818
## Detection Prevalence            0.05372                 0.10331
## Balanced Accuracy               0.61445                 0.89336

En este modelo se consiguió una accuracy de aproximadamente 37%, por lo que no se tomarán en cuenta los datos de este modelo. Se puede concluir tambien que la variable edad no define el sexo ni el peso del bebé, debido a su poca relación.

- Redes Neuronales

## Confusion Matrix and Statistics
## 
##    
##      1  2  3  4
##   1  8  0  0  0
##   2  0 22  0  0
##   3  0  0 26  0
##   4  6  0  1 37
## 
## Overall Statistics
##                                           
##                Accuracy : 0.93            
##                  95% CI : (0.8611, 0.9714)
##     No Information Rate : 0.37            
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.901           
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: 1 Class: 2 Class: 3 Class: 4
## Sensitivity            0.5714     1.00   0.9630   1.0000
## Specificity            1.0000     1.00   1.0000   0.8889
## Pos Pred Value         1.0000     1.00   1.0000   0.8409
## Neg Pred Value         0.9348     1.00   0.9865   1.0000
## Prevalence             0.1400     0.22   0.2700   0.3700
## Detection Rate         0.0800     0.22   0.2600   0.3700
## Detection Prevalence   0.0800     0.22   0.2600   0.4400
## Balanced Accuracy      0.7857     1.00   0.9815   0.9444

Con la accuracy aproximada de 93% del modelo se puede comprobar aún más la ceracidad de la información recolectada del arbol de clasificación. Concuerda en que La variable edad tiene mucho que ver entre departamentos, por lo que sí debería de ser parte de nuestra categorización de departamentos en los cuales invertir en educación.

## Confusion Matrix and Statistics
## 
##                   
##                    15 - 19 Todas las edades Ignorado 35 - 39 45 - 49 20 - 24
##   15 - 19                1                0        0       0       0       0
##   Todas las edades       0                1        0       0       0       0
##   Ignorado               0                0        2       0       0       0
##   35 - 39                0                0        0       3       0       0
##   45 - 49                0                0        0       0       6       0
##   20 - 24                0                0        0       0       0       3
##   50 y más               0                0        0       0       0       0
##   30 - 34                0                0        0       0       0       0
##   40 - 44                0                0        0       0       0       0
##   Menos de 15            0                0        0       0       0       0
##   25 - 29                0                0        0       0       0       0
##   Menos de 18            0                0        0       0       0       0
##   18 - 19                0                0        0       0       0       0
##                   
##                    50 y más 30 - 34 40 - 44 Menos de 15 25 - 29 Menos de 18
##   15 - 19                 0       0       0           0       0           0
##   Todas las edades        0       0       0           0       1           0
##   Ignorado                0       0       0           0       0           0
##   35 - 39                 0       0       0           0       0           0
##   45 - 49                 0       0       0           0       0           0
##   20 - 24                 0       0       0           0       0           0
##   50 y más                1       0       0           0       0           0
##   30 - 34                 0       1       0           0       0           0
##   40 - 44                 0       0       1           0       0           0
##   Menos de 15             0       0       0           0       0           1
##   25 - 29                 0       0       0           0       0           0
##   Menos de 18             0       0       0           0       0           0
##   18 - 19                 0       0       0           0       0           0
##                   
##                    18 - 19
##   15 - 19                1
##   Todas las edades       0
##   Ignorado               0
##   35 - 39                0
##   45 - 49                0
##   20 - 24                0
##   50 y más               0
##   30 - 34                0
##   40 - 44                0
##   Menos de 15            0
##   25 - 29                0
##   Menos de 18            0
##   18 - 19                0
## 
## Overall Statistics
##                                           
##                Accuracy : 0.8636          
##                  95% CI : (0.6509, 0.9709)
##     No Information Rate : 0.2727          
##     P-Value [Acc > NIR] : 1.191e-08       
##                                           
##                   Kappa : 0.8425          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: 15 - 19 Class: Todas las edades Class: Ignorado
## Sensitivity                 1.00000                 1.00000         1.00000
## Specificity                 0.95238                 0.95238         1.00000
## Pos Pred Value              0.50000                 0.50000         1.00000
## Neg Pred Value              1.00000                 1.00000         1.00000
## Prevalence                  0.04545                 0.04545         0.09091
## Detection Rate              0.04545                 0.04545         0.09091
## Detection Prevalence        0.09091                 0.09091         0.09091
## Balanced Accuracy           0.97619                 0.97619         1.00000
##                      Class: 35 - 39 Class: 45 - 49 Class: 20 - 24
## Sensitivity                  1.0000         1.0000         1.0000
## Specificity                  1.0000         1.0000         1.0000
## Pos Pred Value               1.0000         1.0000         1.0000
## Neg Pred Value               1.0000         1.0000         1.0000
## Prevalence                   0.1364         0.2727         0.1364
## Detection Rate               0.1364         0.2727         0.1364
## Detection Prevalence         0.1364         0.2727         0.1364
## Balanced Accuracy            1.0000         1.0000         1.0000
##                      Class: 50 y más Class: 30 - 34 Class: 40 - 44
## Sensitivity                  1.00000        1.00000        1.00000
## Specificity                  1.00000        1.00000        1.00000
## Pos Pred Value               1.00000        1.00000        1.00000
## Neg Pred Value               1.00000        1.00000        1.00000
## Prevalence                   0.04545        0.04545        0.04545
## Detection Rate               0.04545        0.04545        0.04545
## Detection Prevalence         0.04545        0.04545        0.04545
## Balanced Accuracy            1.00000        1.00000        1.00000
##                      Class: Menos de 15 Class: 25 - 29 Class: Menos de 18
## Sensitivity                          NA        0.00000            0.00000
## Specificity                     0.95455        1.00000            1.00000
## Pos Pred Value                       NA            NaN                NaN
## Neg Pred Value                       NA        0.95455            0.95455
## Prevalence                      0.00000        0.04545            0.04545
## Detection Rate                  0.00000        0.00000            0.00000
## Detection Prevalence            0.04545        0.00000            0.00000
## Balanced Accuracy                    NA        0.50000            0.50000
##                      Class: 18 - 19
## Sensitivity                 0.00000
## Specificity                 1.00000
## Pos Pred Value                  NaN
## Neg Pred Value              0.95455
## Prevalence                  0.04545
## Detection Rate              0.00000
## Detection Prevalence        0.00000
## Balanced Accuracy           0.50000

Este modelo con una accuracy aproximada a 86% respalda la información extraida del árbol de clasificación de esta tabla, ya que muestra que si hay mucha relación entre el estado civil de la madre y su edad. Por lo tanto, la edad juega un rol importante en una madre sin pareja, lo cual sí afecta al acceso de educación a estos casos.

## Confusion Matrix and Statistics
## 
##                   
##                    30 - 34 15 - 19 Todas las edades 45 - 49 Ignorado 35 - 39
##   30 - 34               27      16                4       3        7      10
##   15 - 19                5       8                1       0        0       0
##   Todas las edades       0       1               40       0        0       0
##   45 - 49                0       1                0      11       14       4
##   Ignorado               0       0                0      11       13       0
##   35 - 39                9       4                0       1        2      17
##   25 - 29                6       5                0       0        0       0
##   20 - 24                3       1                1       0        0       0
##   40 - 44                0       0                0       5        8       1
##   Menos de 15            0       0                0       4        8       0
##   50 y más               0       0                0       0        0       0
##                   
##                    25 - 29 20 - 24 40 - 44 Menos de 15 50 y más
##   30 - 34               20      17       5           4        7
##   15 - 19                2       0       0           0        0
##   Todas las edades       4       6       0           0        0
##   45 - 49                0       0      12          16       20
##   Ignorado               0       0       0          17        8
##   35 - 39                3       0       2           2        1
##   25 - 29                7       4       0           0        0
##   20 - 24               13      15       0           0        0
##   40 - 44                0       0      23           6        4
##   Menos de 15            0       0       1           3       11
##   50 y más               0       0       0           0        0
## 
## Overall Statistics
##                                           
##                Accuracy : 0.3388          
##                  95% CI : (0.2967, 0.3829)
##     No Information Rate : 0.1074          
##     P-Value [Acc > NIR] : < 2.2e-16       
##                                           
##                   Kappa : 0.2727          
##                                           
##  Mcnemar's Test P-Value : NA              
## 
## Statistics by Class:
## 
##                      Class: 30 - 34 Class: 15 - 19 Class: Todas las edades
## Sensitivity                 0.54000        0.22222                 0.86957
## Specificity                 0.78571        0.98214                 0.97489
## Pos Pred Value              0.22500        0.50000                 0.78431
## Neg Pred Value              0.93681        0.94017                 0.98614
## Prevalence                  0.10331        0.07438                 0.09504
## Detection Rate              0.05579        0.01653                 0.08264
## Detection Prevalence        0.24793        0.03306                 0.10537
## Balanced Accuracy           0.66286        0.60218                 0.92223
##                      Class: 45 - 49 Class: Ignorado Class: 35 - 39
## Sensitivity                 0.31429         0.25000        0.53125
## Specificity                 0.85078         0.91667        0.94690
## Pos Pred Value              0.14103         0.26531        0.41463
## Neg Pred Value              0.94089         0.91034        0.96614
## Prevalence                  0.07231         0.10744        0.06612
## Detection Rate              0.02273         0.02686        0.03512
## Detection Prevalence        0.16116         0.10124        0.08471
## Balanced Accuracy           0.58253         0.58333        0.73908
##                      Class: 25 - 29 Class: 20 - 24 Class: 40 - 44
## Sensitivity                 0.14286        0.35714        0.53488
## Specificity                 0.96552        0.95928        0.94558
## Pos Pred Value              0.31818        0.45455        0.48936
## Neg Pred Value              0.90909        0.94013        0.95423
## Prevalence                  0.10124        0.08678        0.08884
## Detection Rate              0.01446        0.03099        0.04752
## Detection Prevalence        0.04545        0.06818        0.09711
## Balanced Accuracy           0.55419        0.65821        0.74023
##                      Class: Menos de 15 Class: 50 y más
## Sensitivity                    0.062500          0.0000
## Specificity                    0.944954          1.0000
## Pos Pred Value                 0.111111             NaN
## Neg Pred Value                 0.901532          0.8946
## Prevalence                     0.099174          0.1054
## Detection Rate                 0.006198          0.0000
## Detection Prevalence           0.055785          0.0000
## Balanced Accuracy              0.503727          0.5000

En este modelo se consiguió una accuracy de aproximadamente 37%, por lo que no se tomarán en cuenta los datos de este modelo.